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摘 要 : 从 数据 中 学 习 贝 叶 斯 网 络 结构 是 一 个 NP-hard 问题 ， 提 高 网 络 结构 学 习 算 法 精度 是 研究 的 重 难点 。 基 于 Judea 
Pearl 因果 理论 ， 提 出 了 一 种 贝 叶 斯 网 络 结构 学 习 方 法 ， 提 升 了 现 有 算法 的 准确 率 。 利 用 改进 的 Pearl 因果 效应 和 BDe 
评分 ， 学 习 网 络 节点 优先 次 序 ， 利 用 K2 算法 学 习 初 始 网 络 ， 并 通过 BDe 评分 反 向 调节 、 互 信息 和 BDe 评分 删除 边 以 
修正 学 习 结 果 。 实 验 在 贝 叶 斯 网 络 标准 数据 集 ASIA、ALARM 上 进行 ,在 样本 量 为 2000~20000 的 20 组 实验 中 ， 学 习 
准确 率 较 MMHC 算法 平均 提升 16%， 准确 率 标准 差 较 MMHC 算法 平均 缩小 17%。 实 验 表 明 ,， 基 于 因果 效应 的 方法 较 
MMHC 算法 有 更 好 地 性 能 。 

关键 词 : 贝 叶 斯 网 络 ; 阿尔 英 海 默 病 ; K2 算法 ; 因果 效应 ; BDe 评分 ; 互信 息 

中 图 分 类 号 : TP301.6 doi: 10.3969/j.issn.1001-3695.2018.07.0348 


Bayesian network structure learning method based on causal effect 
An Ning, Teng Yue, Yang Jiaoyuni, Li Lian 


(National Smart Eldercare International S&T Cooperation Base, School of Computer & Information, Hefei University of 
Technology, Hefei 230009, China) 


Abstract: Learning bayesian networks from data is a NP-hard problem. Improving the accuracy of network structure learning 
algorithms is important, yet difficulty for researchers. The paper proposed a Bayesian network structure learning algorithm based 


on Judea Pearl’s causal theory to improve the accuracy of existing algorithms. The algorithm made use of the improved causal 


me effect and the BDe scoring-function to learn the nodes order. then applied K2 algorithm to achieve an initialized network. At 


last, it used the BDe scoring-function to adjust the network inversely, besides, it used mutual-information and BDe scores to 


prune the edges. The proposed method outperforms MMHOC algorithm on the ASIA and ALARM data set, with 16% accurate 
improvement, and 17% standard deviation less on average. The results show that the method base on causal effect is batter then 
= MMHC algorithm. 
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出 错 的 工作 ， 而 从 数据 中 学 习 得 到 贝 叶 斯 网 络 是 一 个 NP-hard 


0 言 
问题 DJ。 因 此 ， 如 何 高 效 、 高 质量 地 从 数据 中 学 习 贝 叶 斯 网 络 
贝 叶 斯 网 络 是 不 确定 知识 表达 的 重要 工具 、 是 一 些 节 点 联 ”成 为 了 研究 的 重 难点 之 一 。 近 几 十 年 来 ， 涌 现 了 很 多 结构 学 习 


加 


合 概率 分 布 的 有 向 无 环 图 ， 它 由 有 向 无 环 图 directed acyclic 方法 ,基于 条 件 独立 测试 的 算法 02431、 基于 评分 搜索 的 算法 04-19 
graph ) 和 条 件 概率 表 (conditional probability table ) 两 部 分 组 成 。 ” 以 及 混合 条 件 独立 性 测试 和 评分 搜索 的 方法 [171。 


其 中 ， 有 向 无 环 图 定性 的 表示 了 变量 之 间 的 独立 关系 ， 条 件 概 基于 评分 函数 的 方法 包含 两 个 部 分 : a) 用 来 衡量 网 络 和 数 
率 表 则 定量 的 表示 了 变量 间 的 依赖 程度 。 由 于 其 图 形 可 视 化 的 据 拟 合 程度 的 评分 函数 ,如 BIC (Bayesian information criterion ) 
特点 , 被 广泛 应 用 于 生物 医药 领域 03、 预 测 领域 64、 分 类 569、 评分 标准 ， 它 是 在 样本 满足 独立 同 分 布 的 前 担 下， 用 对 数 似 然 
因果 推断 5 、 视 觉 识 别名 、 信 息 检 索 09 等 。 度 来 度量 网 络 结构 与 观测 数据 的 拟 合 程度 9、 还 有 假设 结构 先 

贝 叶 斯 网 的 构建 方法 主要 分 为 通过 专家 知识 构建 和 通过 数 念 分 布 服从 狄 利克 雷 分 布 的 BDe 评分 05、 假 设 结构 先 验 分 布 服 
据 构 建 。 通 过 专家 知识 构建 贝 叶 斯 网 络 是 一 项 非常 繁琐 且 容 易 从 均匀 分 布 的 CH 评分 (K2 评分 函数 ) 09、 基 于 数据 编码 总 长 
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度 度量 的 MDL 总 


分 (minimum description length) 0 等 ; b) 寻 


ChinaX ivt 
: 基于 因果 效应 的 贝 叶 鞭 


找 最 高 评分 函数 的 方法 .如 :需要 节点 优先 顺序 的 K2 算法 PL23、 
最 大 最 小 聆 山 算法 P3、 更 容易 获得 全 局 最 优 的 粒子 群 算法 C、 
疏 山 算法 等 。 由 于 搜索 空间 是 关于 节点 个 数 指数 上 升 的 ， 所 以 (%) (%) 
不 能 使 用 穷 举 法 得 到 评分 最 高 的 网 络 。 
基于 条 件 独立 性 测试 的 方法 虽然 能 较 准确 的 学 习 贝 叶 斯 网 Lo) 
络 结构 ， 但 只 适用 于 离散 数据 ， 对 于 多 维 数据 下 的 学 习 效 率 不 
里 想 。 结 合 条 件 独 立 性 测试 和 评分 搜索 的 方法 有 更 高 的 准确 率 。 图 1 一 个 贝 叶 斯 网 络 
其 中 最 为 代表 性 的 是 MMHC 方法 。MMHC 算法 分 为 第 一 阶段 ”1.2 因果 理论 
MMPC 算法 , 和 第 二 阶段 的 评分 方法 。MMPC 算法 首先 确定 传统 的 统计 学 用 相关 性 来 描述 随机 变量 间 的 关系 。 但 是 相 
标 变量 7 的 父子 节点 集 CPC( 用 ， 以 7 变量 的 父子 节点 集 为 条 ” 关 性 不 能 完全 概括 随机 变量 之 间 的 关系 。 例 如 可 以 很 容易 得 到 
件 ， 计 算 网 络 中 其 他 变量 关于 7 变量 的 最 小 依赖 程度 “ 刮 风 一 树叶 摇晃 ”的 关联 关系 。 根 据 常 识 ， 刮 风 是 树叶 摇晃 
Assoc(X,TICPC(T))。 最 小 依赖 程度 取 最 大 的 变量 加 入 到 7 了 的 候 ”的 原因 ， 有 乔 风 一 树叶 摇晃 。 但 反 过 来 ， 则 会 认为 树叶 摇晃 是 
ee 乔 风 的 原因 ， 这 显然 是 错误 的 。 在 关联 关系 中 ， 存 在 着 因果 关 
法 第 二 阶段 ， 通 过 两 个 准则 删除 第 一 阶段 错误 加 入 的 候选 父子 ” 系 。 
节点 ， 从 而 构建 无 方向 的 贝 叶 斯 骨架 。 MMHC 算法 第 二 阶段 则 Pearl 对 于 这 一 系列 问题 , 提出 了 因果 理论 ,他 对 于 事物 间 
是 通过 删除 增加 、 反 向 三 个 调节 因子 结合 评分 函数 进行 打分 ， 的 因果 性 的 强度 用 平均 因果 效应 来 描述 ， 更 加 形式 化 的 ， 用 式 
取 最 高 分 值 作为 网 络 学 习 结 果 P3]。 (1) 描述 两 事物 X、Y 之 间 的 平均 因果 效应 (average cause 
K2 算法 是 一 种 可 以 明显 缩小 搜索 空间 的 贪 禁 搜索 算法 ,但 。” effective，ACE)。 
需要 提供 节点 优先 顺序 〈 在 序列 中 ， 排 在 前 的 节点 不 可 能 是 排 ACE = P(Y =1| do(X =1)) 六 
在 后 的 节点 的 子 节点 )。 节点 顺序 的 正确 性 , 直接 影响 了 网 络 的 -PY =1|do(X =0)) 
训练 结果 。 近 年 来 ， 有 部 分 学 者 针对 K2 节点 优先 顺序 做 了 相 其中: do(X =D 为 Pearl 定义 的 “do 一 操作 ” 式 (3) 给 出 了 
关 研究 04， 从 算法 的 时 间 复 杂 度 和 准确 性 来 说 ， 仍 不 能 满足 大 “do 一 操作 ”的 形式 化 定义 : 
数据 下 的 应 用 。 P(Y = y|do(X =7)) 
基于 因果 效应 的 方法 从 Judea Pearl 提出 的 因果 理论 入 手 D4 1 
通过 定义 的 因果 效应 强度 计算 、 无 边 网 络 BDe 评分 计算 , 得 到 ” 其中: Z 为 X 到 了 的 后 门路 径 集 合 。 
节点 优先 顺序 。 结 合 K2 算法 和 互信 息 学 习 贝 叶 斯 网 络 。 在 标 ee 
准 数据 库 下 的 实验 表明 ， 该 方法 在 准确 率 和 标准 差 性 能 上 远 高 EE a 
于 其 他 方法 。 由 于 K2 算法 需要 为 之 提供 节点 优先 次 序 ， 而 节点 优先 次 
序 只 能 定性 地 描述 变量 之 间 的 父子 关系 ， 所 以 基于 因果 效应 的 
il 方法 第 一 步 定 义 了 节点 优先 度 ， 用 于 定量 地 描述 节点 之 间 父 子 
1.1 贝 叶 斯 网 络 关系 。2.1 节 定 义 了 节点 优先 度 的 计算 方法 , 将 节点 优先 度 向 量 
贝 叶 斯 网 是 一 个 带 参 数 的 有 向 无 环 图 , 可 以 用 <G.8> 来 表 ”降序 排列 ， 得 到 节点 优先 次 序 。 第 二 步 通 过 节点 优先 次 序 ， 结 
示 。 其 中 : G 代表 有 向 无 环 图 ， 如 图 1 所 示 。 9@ 代表 父 节点 对 合 K2 算法 初始 化 贝 叶 斯 网 络 。 为 提高 运算 效率 ， 提 出 的 节点 
于 子 节点 的 条 件 概率 表 。G 是 一 个 二 元 组 <V,G>, 其 路 代表 所 优先 度 计算 方法 不 考虑 两 节点 之 间 的 后 门路 径 ， 虽 然 在 不 考虑 
有 随机 变量 组 成 的 点 集 ，Y ={X1…,Xn} ，X; 为 图 G 中 第 i 个 节 ”后门 路径 的 情况 下 ， 大 部 分 节点 优先 次 序 已 经 是 真实 的 优先 次 
点 ,， B 代表 边 组 成 的 集合 ， 根 据 图 论 的 相关 知识 ， 边 集 用 和 矩阵 ” 序 ， 但 部 分 节点 优先 次 序 和 真实 优先 次 序 有 一 定 偏差 ， 得 到 的 
A 来 表示 。 若 不 卫 厂 ， 则 矩阵 马 ;=1， 否则 ;=0。 在 有 向 ” 初始 化 网 络 存在 反 向 边 和 多 边 的 情况 。 所 以 第 三 步 通过 逐一 将 
无 环 图 中 , 节点 代表 每 一 个 变量 , 边 代 表 变 量 之 间 的 依赖 关系 。 已 有 边 反 向 和 删除 ， 寻 找 比 初 始 化 网 络 评分 更 高 的 网 络 代 替 初 
如 图 1 所 示 ，X={X1,…,Xn} 代 表 随 机 变量 ,着 在 图 中 存在 台 化 网 络 。 为 避免 使 用 评分 删除 和 反 向 调节 时 陷入 局 部 最 优 ， 
箭头 在 全 而, ij Ee {1,2…n}, 则 表明 X; 是 Xj 的 父 节 点 。 根 据 马 使 用 互信 息 删 除 边 策略 同时 删除 部 分 多 余 边 ， 这 样 可 以 使 评分 
尔 可 夫 假 设 , 各 、Xz .Xs 的 联合 概率 分 布 可 以 用 式 (1) 表示 。 从 另 一 个 新 的 起 始点 开始 。 最 后 ， 直 到 评分 不 再 上 升 时 结束 算 
POX». Xn) = fl POXlz CX) (1) 法 。 
a 2.1 节点 优先 度 和 节点 优先 次 序 
其 中 :7z(Xi) 表 示 Xi 的 所 有 父 节点 。 节点 优先 次 序 包括 两 个 算法 ， 分 别 从 改进 的 因果 效应 和 无 
边 BDe 评分 出 发 , 通过 两 个 算法 得 到 节点 优先 度 向 量 。 降 序 排 


201809.001 ciel 


bad 


录用 稿 


列 该 向 量 ， 得 到 节点 优先 次 序 。 更 加 形式 化 地 ， 有 如 下 定义 : 


定义 1 节点 优先 度 。 对 于 任意 的 节点 X 、xj E 
V{X1.…sXn} ，V 是 贝 叶 斯 网 络 中 的 节点 集 ，n 为 贝 叶 斯 网 络 节 


点 个 数 ， 对 于 节点 集 Y={Xi、X2.. .Xil，Xiri... 


xn 和 节点 X; 。 


给 定 一 个 判断 标准 S， 存 在 N 个 节 点 {Xl、 .0 js EY, 


使 得 判断 标准 $ 成 立 ， 则 N 为 节点 X; 的 优先 度 。 
2.1.1 基于 因果 效应 的 节点 优先 度 算 法 
使 用 如 下 形式 近似 数据 集中 任意 两 节点 X;,X; 之 间 的 因果 


GhinaXiy 合 
安 宁 ， 等 : 基于 因果 效应 的 贝 叶 斯 网 


score(G, 1D) ， 则 成 的 优先 度 加 一 ， 反 之 亦 然 。 降 序 排列 节点 


优先 度 向 量 得 到 节点 优先 次 序 。 
需要 特别 说 明 的 是 ， 若 在 节点 优先 度 向 量 中 ，X 节点 和 了 
节点 的 节点 优先 度 相 同 ， 则 使 用 当前 节点 优先 度 评 判 标准 ， 仅 
针对 久 和 YY 两 个 节点 判断 节点 优先 顺序 。 
2.2 初始 化 网 络 
运用 得 到 的 节点 优先 次 序 结合 K2 算法 学 习 初 始 化 网 络 。 
在 节点 优先 度 计 算 环 节 中 ， 大 部 分 情况 可 以 直接 得 到 正确 的 节 


效应 (cause effective) CEx x,: 


N(X 


=1 
).[P(x ， ]1X， 


CEx SX 一 


1)-P(X 
MO) p(x, -op =) -p(x, -on, =o 


,= =0)] 
(4) 


其 中 : N(X,=1) 表示 X,=1 的 样本 个 数 ，N 表示 总 样本 量 。 

X, =1 表示 随机 变量 X = ture， 
不 考虑 “do- 操 作 ” 并 拓展 J.pearl 的 因果 效应 。 式 (2) 的 ACE 
只 考虑 了 针 节 点 对 于 了 节点 在 Y=1 处 的 因果 效应 。 如 式 (4) 
所 示 ， 考 虑 了 X; 站 Xj 在 XX;=1 和 X=0 两 处 的 因果 效应 。 

使 用 因果 效应 作为 判断 标准 ， 算 法 从 网 络 中 的 一 个 节点 出 
发 ， 依 次 计算 该 该 节点 对 于 其 他 节点 的 因果 效应 ， 若 
CEx, sx, > CEx, yx, ， 则 X; 的 节点 优先 度 加 一 ， 和 否则 X， 的 节点 
优先 度 加 一 。 算 法 遍历 网 络 中 任意 两 节点 之 间 的 因果 效应 。 假 
设 有 N 个 节点 ， 共 进行 32i x 次 计算 。 降 序 排列 节点 优先 度 向 
量 ， 得 到 节点 优先 次 序 。 

2 基于 BDe 评分 函数 的 节点 优先 度 方法 

BDe 是 最 早 的 贝 叶 斯 网 络 数据 拟 合 程度 的 评分 函数 之 一 ， 
它 假设 数据 服从 狄 里 克 雷 分 布 〈dirichlet distribution)， 有 如 下 
形式 : 


score(G|D)= 


T (6) S T (0 + mi ) (5) 

log 和 + > log 
> 可 T(ar+mr) 各 T(@) 

其 中 : 工人 9 为 伽 马 函数 ，min 表示 数据 中 第 i 个 节点 , 取 第 k 个 

值 ,其 父 节点 为 第 j 个 值 的 样本 个 数 ,mj 是 狄 利克 雷 分 布 的 超 


Ms = > my ， Qu* = > ou 5 
大 大 
使 用 BDe 函数 作为 判断 节点 优先 度 的 标准 , 得 到 基于 BDe 


评分 函数 的 节点 优先 度 向 量 。 算 法 开始 从 一 个 只 有 节点 的 网 络 
出 发 。 对 于 网 络 中 所 有 节点 Xe{Xi.…X,} 和 


参数 ， 角 标 含义 同 mx 。 


Xe{X,,X,...X. ,,X 
J 1 


2 一 Xi+41…Xn 构建 两 个 图 G， 其 中 : 


Gi 的 


节点 XX; 指向 XX;，G, 的 Xj 指向 X;。 然 后 根据 BDe 评分 函数 


计算 score(G |D) 和 score(G, | D) ;这 score(G, | D) > 


Xi =0 表 示 随 机 变量 X = false 。 


点 优先 次 序 ， 但 是 由 于 基于 因果 效应 的 节点 优先 度 计 算 方法 删 
除了 “do- 操 作 ” 和 后 门路 径 , 基于 BDe 评分 的 节点 优先 度 计 算 
方法 只 考虑 无 边 网 络 评分 ， 所 以 节点 优先 度 向 量 和 真实 优先 度 
向 量 可 能 存在 偏差 ， 到 这 里 得 到 的 是 一 个 近似 正确 的 网 络 。 
K2 (cooper and Herskovits,1992 ) 是 贝 叶 斯 网 络 结构 学 习 算 
法 之 一 , 设 随机 变量 D={Xi,…,X,} 是 一 组 完备 数据 集 。K2 算 


法 使 用 CH 评分 作为 评分 准 侧 ， 其 形式 如 下 : 
scoreK2= . Y Pr | (6) 
各 | 各 L (m+7i-D)! 伍 人 
其 中 : ma 表示 数据 中 第 i 个 节点 ， 取 第 个 值 ， 其 父 节 点 为 


为 了 缩小 搜索 空间 ， 需 要 


第 j 个 值 的 样本 个 数 ，mi" = mw 。 


给 K2 算法 提供 节点 次 序 和 最 大 父 节 点 个 数 。 排 在 节点 次 序 前 
的 随机 变量 不 能 成 为 排 在 节点 次 序 后 的 随机 变量 的 子 节点 。 例 
如 ， 若 有 节点 顺序 order = 人 XXX) ， 则 X, 不 可 能 是 XX， 

的 子 节点 。K2 算法 的 结果 正确 性 很 大 程度 取决 于 节点 次 序 。 节 
点 次 序 一 般 通 过 先 验 知识 获得 ， 但 在 现实 中 ， 基 本 无 法 通过 先 
验 知识 获得 节点 次 序 ， 以 下 提供 了 从 数据 中 学 习 节 点 次 序 的 方 


人 
2.3 反 向 调节 和 基于 互信 息 的 删 边 策略 
2.3.1 基于 互信 息 的 删除 边 策略 

大 部 分 情况 下 ， 初 始 化 的 网 络 就 是 真实 的 贝 叶 斯 网 络 。 但 
也 有 可 能 由 于 节点 次 序 的 略微 偏差 导致 网 络 中 少量 边 是 错误 的 。 
因此 需要 对 这 些 边 进行 反 向 调整 和 删除 操作 。 由 于 2.3.2 的 评 
分 调节 策略 是 在 某 一 特定 情况 下 ， 对 网 络 的 某 些 边 进行 反 向 和 
删除 操作 ， 容 易 陷 入 局 部 最 优 ， 无 法 更 贴近 全 局 最 优 。 为 了 使 
评分 的 初始 值 更 贴近 全 局 最 优 , 减少 容易 陷入 局 部 最 优 的 情况 ， 
使 用 互信 息 删除 关联 度 较 小 的 边 ( 这 些 边 在 真实 网 络 中 不 存在 ， 
在 当前 状态 下 的 评分 有 可 能 高 于 删除 后 的 评分 ), 从 而 更 容易 使 


2.3.2 的 评分 方法 贴近 全 局 最 优 。 互 信息 可 以 用 来 描述 变量 之 间 


相关 程度 ， 用 下 式 描述 : 

T(X;Y)=H(X)-H(XIY) 0) 
其 中 : OV 为 变量 的 信息 粹 ，H(X1 为 变量 XY 对 于 变量 了 的 
条 件 信息 米 。 变 量 邓 的 信息 炉 可 以 用 下 式 描述 


H(X)=- 5 P(x)*logP(x) 


(8) 
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同样 地 ， 变 量 X 和 变量 Y 的 条 


了 区 


H(X|Y)=-2,>P( 


件 信 息 业 可 以 上 


] 式 (9) 描 


Xly)* logP(x| y) 


信息 炉 描述 了 变量 所 舍 信 息 不 
代 蔡 条 件 独立 测试 ， 可 以 有 效 地 提 
将 所 有 节点 之 间 的 互信 


息 进行 降序 


确定 性 的 多 少 。 
升 计算 效率 。 删 
排列 ， 对 于 网 络 


点 ， 依 次 作为 目标 节点 7， 选 择 目标 节点 了 的 互信 


的 个 节点 作为 可 能 和 目标 节点 了 
化 网 络 中 , 对 于 和 目标 节点 有 边 


点 是 否 有 有 


否 在 了 节点 的 前 h 个 降序 排 
都 不 满足 ， 
误 的 删除 正确 边 以 及 不 能 


来 选择 的 数值 。 在 实验 部 分 ， 取 b=[3n 1， 其 中 


2.3.2 基于 BDe 评分 的 反 向 调节 和 其 


列 的 互信 | 


有 边 的 节点 集 。 


| 边 调节 


(9) 


使 用 互信 息 
除 边 策略 是 
中 的 所 有 节 
息 排 名 靠 前 
然后 在 初始 


连接 的 节点 Y 依次 查看 a) 了 7 了 节 
企 了 节点 的 前 Ph 个 互信 息 倒序 排列 列表 中 ;b〉) 了 节点 是 
息 节 点 列表 中 。 若 a) b) 
则 删除 目标 节点 T 了 和 了 节点 之 间 的 边 。 为 了 避免 错 
1 除 多 余 边 两 种 情况 ， 根 据 节 点 数量 


n 是 节点 个 


完成 了 2.3.1 节 的 环节 后 ， 己 经 将 网 络 中 大 部 分 相关 度 不 


高 的 节点 对 之 间 的 边 删 除 ， 此 时 网 


时 还 需要 调节 部 分 由 于 节点 次 序 错 


络 评分 更 接近 全 


局 最 优 。 这 


误导 致 的 反 向 边 。 


在 这 个 环节 ,使 用 BDe 评分 作为 调节 
删除 边 两 个 算 子 , 对 于 网 络 中 的 边 集 已 ={e,e .， 


使 


入 标准 ， 


用 反 向 边 和 


:6,} ,依次 将 边 


e@; 反 向 和 删除 ， 然 后 计算 BDe 评分 ， 若 BDe 评分 高 于 反 向 前 


网 络 的 BDe 评分 , 将 边 。 反 向 或 删除 。 直 到 评分 不 


算法 。 


3 ”实验 结果 


增加 停止 
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图 2 ASIA 网 络 


表 1 ASIA 网 络 学 习 结果 比较 分 析 
基于 因果 效应 


随机 节点 顺序 
山 法 MMHC 算法 MCMC 算法 


的 方法 的 K2 方 法 


0.94 3.75 1.75 3.41 0.16 6.3 0.82 3.9 2.18 


0.32 0.96 0.65 1.32 0.36 0.5 0.71 0.5 0.71 


0.79 3.29 1.75 3.26 0.26 1.2 0.63 3.5 1.78 


1.06 1.68 1.31 4.67 0.24 0.6 0.84 4.0 1.70 


1.51 5.93 2.81 9.27 0.28 23 1.26 8.0 3.50 


ASIA 网 络 正确 边 对 比 


Prey 


一 人 一 My method 


MMHC 
一 生 一 MCMC 


正确 边 数 
口上 PhWwWwmDNVIo 


个 Ry Ky 9 SR 


图 3 ASIA 网 络 正 确 边 对 比 


基于 因果 效应 的 方法 在 两 个 贝 叶 斯 标准 数据 库 下 测试 人 
(ASIA 数据 库 、ALARM 数据 库 ), 并 与 MMHC 算法 、 MCMC i Pa 一 
算法 、 疏 山 法 和 随机 K2 算法 进行 对 比 。 对 于 同一 组 数据 ， 从 Nd 
正确 边 、 丢 失 边 、 反 向 边 、 多 边 的 平均 值 以 及 标准 差 进行 对 比 。 六 Pav 
取 不 同样 本 量 数据 进行 实验 ,样本 量 分别 为 (2000、4000、6000、 10.00% 
8000、10000、12000、14000、16000、20000) .实验 表明 ， 该 方 Ss SS 
法 在 正确 边 个 数 、 错 误 边 个 数 均 胜 过 其 他 贝 叶 斯 网 络 学 习 方 法 。 2 
3.1 ASIA 数据 库 图 4 ”ASIA 网络 正确 边 增 量 对 比 
ASIA 数据 库 是 贝 叶 斯 标准 数据 库 之 一 ， 描 述 了 胸腔 诊断 实验 表明 ， 在 ASIA 数据 集 上 ， 基 于 因果 效应 的 方法 比 
网 络 ， 如 图 2 所 示 。 实 验 结果 如 表 1 和 图 3、4 所 示 。 MMHC 算法 有 更 高 的 准确 性 , 在 十 组 实验 数据 中 ,有 四 组 达到 
可 以 看 到 , 基于 因果 效应 的 方法 在 10 组 实验 中 , 平均 正确 了 全 局 最 优 ， 学 习 到 了 全 部 正确 的 网 络 结构 〈 正 确 边 为 8 条 的 
边 数 高 达 7.0 条 ， 而 MMHC 算法 的 平均 正确 边 数 仅 为 6.3 条 ， ”网 络 结构 ), 而 MMHC 算法 仅 有 一 组 学 习 到 了 完全 正确 的 网 络 
正确 边 数 量 较 MMHC 算法 提升 了 11.1%。 图 3 展示 了 不 同 算 。 结构 。 对 于 大 多 数 样 本 来 说 ， 该 方法 较 MMHC 算法 更 容易 达 
法 在 不 同样 本 量 下 的 正确 边 数量 。 在 ASIA 数据 库 中 ，MMHC “到 全 局 最 优 。 
算法 是 对 比 算法 中 性 能 最 为 优越 的 。 图 4 针对 MMHC 算法 进 3.2 ALARM 网 络 
行 了 正确 边 增 量 对 比 。 为 便于 阅读 ， 隐 藏 横 坐 标 相 应 样本 量 ， ALARM 网 络 来 源 于 医疗 诊断 监控 系统 ,由 37 个 节点 和 46 


横 坐 标 数值 同 图 3。 


条 边 组 成 。 其 网 络 结构 如 图 


5 所 示 。 
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图 5 ALARM 网 络 结构 
这 里 选用 基于 BDe 评分 的 节点 优先 次 序 计算 方法 


来 进行 


实验 。 


实验 表明 ， 该 方法 能 准确 学 习 贝 叶 # 
实验 结果 。 基 于 因果 效应 的 方法 在 ALARM 
正确 边 数 为 41.2 条 ， 而 MMHC 算法 的 平均 正确 边 数 仅 有 34.1 


条 , 较 MMHC 算法 正确 率 提 升 20.8%。 


士 困 
结果 ， 


在 


16%。 
图 6 


MMHC 算法 性 能 优 于 其 他 对 比 算法 。 
的 方法 较 MMHC 算法 的 增 量 对 比 。 为 方便 对 比 ， 图 


横 坐 标 数值 ， 具 体 数 值 同 图 6。 


20 组 实验 数据 中 ， 平 均 正 


给 出 了 不 同 算法 在 不 同样 本 是 


图 


量 数 据 


有 网络。 表 2 给 出 了 
组 数据 集中 平均 


结合 ASIA 网 络 的 实验 


确 率 较 MMHC 方法 提升 


的 正确 边 对 比 ， 
7 给 出 了 基于 因果 效应 
7 隐藏 J 


表 2 ALARM 网 络 学 习 结 果 比 较 分 析 


基于 因果 效应 
的 方法 


二 


的 K2 方法 


随机 节点 顺序 


MMHC 算法 ”MCMC 算法 


平均 


41.2 3.08 21 4.24 21.9 


0.5 0.53 2.5 0.71 2.40 


4.2 2.53 22.5 4.94 21.8 


5.5 2.32 12 2.82 40.8 


误 10.2 4.80 37 7.07 64.9 


标准 差 平均 标准 差 平均 标准 差 平均 标准 差 


0.61 
0.25 
0.54 
1.45 
1.66 


平均 标准 差 


34.1 6.05 20 3.56 


0.3 0.48 3.5 2.11 


11.6 6.19 22.5 2.83 


4.1 1.45 44.5 8.03 


16.0 6.93 70.5 10.54 


可 以 看 到 ， 


基于 因果 效应 的 方法 在 ALARM 


好 于 MMHC 算法 。 由 于 使 用 


优先 次 序 错误 时 ， 会 导致 多 余 边 数量 的 上 升 。 在 第 二 


边 调 节 


人 中 » 仅 考 虑 同时 


图 的 十 个 数据 


库 中 有 8 个 数据 库 好 于 MMHC 算法 ， 在 丢失 边 和 反 向 边 上 都 
K2 算法 得 到 初始 化 网 络 ， 当 节点 

部 分 删除 

最 多 删除 一 条 边 的 评分 比较 ， 这 虽然 可 

局 部 最 优 的 可 能 性 ， 从 而 


以 提高 运算 效率 ， 但 是 还 是 存在 陷入 


导致 多 余 边 在 某 些 情况 下 不 能 完全 贡 


除 。 


图 8 给 出 了 两 个 网 络 ， 


20 组 实验 结果 的 平均 标准 差 数 据 对 


比 。 


基于 因果 效应 的 方法 , 正确 边 村 


Fk 准 差 平均 较 MMHC 低 17% 。 


其 中 ASIA 网 络 中 ,正确 边 标准 


差 无 


不 容易 陷入 局 部 最 优 。 而 在 alarm 网 络 中 


要 学 习 ， 学 习 难 度 较 大 ， 容 易 陷 入 局 


也 相对 较 大 。 对 比 随 机 K2 方法 的 平 


法 的 标准 差 性 能 是 最 好 的 ， 但 是 如 


让 ， nm 


局 部 最 优 ， 所 以 标 ; 


均 标 


明显 差异 , 这 是 因为 ASIA 
只 有 8 个 节点 8 条 边 ， 相 对 于 大 型 网 络 ， 人 


Et 有 46 条 边 需 
伍 差 差距 


准 差 ,虽然 随机 K2 算 
图 9 所 示 随 机 K2 方法 准确 
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率 明显 低 于 基于 因果 效应 的 方法 。 分 析 随机 K2 方法 的 图 


二 HE 
结果 


发 现 , 当 节 点 顺序 有 较 大 偏差 时 , 虽然 正确 边 和 疏 山 法 、MCMC 
相差 不 大 ， 但 随机 K2 方法 生成 的 网 络 更 偏向 于 全 连通 网 络 ， 


可 以 看 到 ， 


应 用 价值 非常 低 。 图 9 给 出 了 算法 的 正确 率 对 比 。 
在 两 个 网 络 的 平均 正确 率 上 ,该 方法 较 MMHC 有 明显 的 提升 。 
ALARM 网 络 正确 边 对 比 
50 | 
45 | 
二 一 
35 | 
演 30 | 
到 25 1 ”一 上 一 My method 
法 20 | oe 
日 | —#—MMHC 
15 - 
19 MCMC 
3 | 
Sa 沁 SD SY gS SD 
图 6 ALARM 网 络 正确 边 对 比 
ALARM 网 络 正 确 边 增 量 对 比 
60.00% 
50.00% | 
40.00% 
衬 30.00% 上 
证 20.00% 一 上 一 My method 
电 一 上 一 MMHC 
慨 10.00% 
0.00% 
-10.00% 
-20.00% 
图 7 ALARM 网 络 增 量 对 比 
正确 边 标准 差 对 比 
6 
5 
扩 4 | My method 
油 3 四 MMHC 
尝 MCMC 
长 2 
加 随机 K2 
1 | 
,i_ 加 
ASIA ALARM 


图 8 不 同方 法 标准 差 对 比 


正确 率 对 比 
100.00% 
90.00% 
80.00% 
70.00% mMy method 
话 OO MMHC 
这 50.00% MaMc 
0 田 息 山 法 
30.00% 
20.00% 下 随机 K2 
10.00% 
0.00% 
ASIA ALARM 
图 9 9 不 同方 法 正确 率 对 比 
实验 表明 ， 基 于 因果 效应 的 方法 较 其 他 算法 有 更 好 的 准确 
性 和 稳定 性 ， 在 ASIA 数据 库 上 胜 过 MMHC 算法 ， 远 超 扑 山 


法 、 随 机 K2 法 和 MCMC 算法 。 在 大 型 网 络 ALARM 


MMHC、MCMC 等 算法 ， 有 更 好 的 准确 性 和 稳定 性 。 


| 


» 


随 着 


样本 数 的 增加 ， 较 MMHC 算法 的 效率 也 随 之 提升 ， 远 超过 
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4 ”结束 语 


贝 叶 斯 网 络 是 用 来 描述 节点 联合 概率 的 图 模型 ， 贝 叶 斯 网 
络 中 的 箭头 可 以 表示 因果 性 。 提 出 了 基于 pearl 因果 效应 和 基 
于 BDe 评分 函数 的 节点 优先 度 算法 ， 结 合 K2 算法 在 贝 叶 斯 网 
络 标准 数据 库 上 胜 过 MMHC 等 算法 。 基 于 因果 效应 的 方法 在 
节 反 向 边 环 节 ， 是 通过 评分 函数 调节 的 。 目 前 已 有 的 评分 函 
数 ， 都 需要 假设 数据 服从 某 一 个 先 验 分 布 。 这 使 得 评分 函数 不 
能 准确 的 描述 数据 和 网 络 的 拟 合 程度 。 考 虑 到 在 今后 的 研究 中 ， 
可 以 通过 文本 挖掘 关键 词 网 络 中 有 相关 关键 词 的 句子 ， 用 自然 
语言 处 理 的 方法 识别 出 贝 叶 斯 网 络 箭头 的 方向 ， 从 
据 中 学 习 得 到 的 图 的 部 分 错误 边 方向 。 这 也 是 今后 贝 叶 斯 网 络 
学 习 的 发 展 趋势 。 
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